Continuous Temporal Difference Learningの導出
notation
状態:$ x(t)
行動:$ a(t)
時間発展(環境のダイナミクス):$ \dot{x}(t) = f(a(t), x(t))
報酬:$ r(x(t), a(t))
方策:$ p(a(t)|x(t), \pi) = \pi(a(t), x(t))
長期的に報酬を最大にする$ \piを発見することが目的
$ V^{\pi}(\mathrm{x}(t)):=\left\langle\int_{t}^{\infty} r\left(\mathrm{x}^{\pi}(s), \mathrm{a}^{\pi}(s)\right) e^{-\frac{(s-t)}{\tau_{r}}} \mathrm{d} s\right\rangle_{\mathrm{x}^{\pi}, \mathrm{a}^{\pi}}
$ x^{\pi}, a^{\pi}:policy$ \piにおける将来の軌道と行動
時刻$ tに状態$ x(t)にいるときに期待される割引報酬を表す
policyはすべての状態で$ V^\piが最大になるように学習される
$ \dot{V}^{\pi}(\mathbf{x}(t))-\frac{1}{\tau_{r}} V^{\pi}(\mathbf{x}(t))+r(\mathbf{x}(t), \mathbf{a}(t))=0
$ fや$ rを知らないので$ V^\piについて解けない
3. $ V^\piを推定する関数として$ Vを考え,TD誤差を定義する $ \delta(t):=\dot{V}(\mathbf{x}(t))-\frac{1}{\tau_{r}} V(\mathbf{x}(t))+r(\mathbf{x}(t), \mathbf{a}(t))
c.f. 離散時間におけるTD誤差
$ \delta_{t}:=\gamma V\left(\mathbf{x}_{t}\right)-V\left(\mathbf{x}_{t-1}\right)+R\left(\mathbf{x}_{t}, \mathbf{a}_{t}\right)
$ \dot{\mathbf{w}}=-\eta \nabla_{\mathrm{w}}\left[\frac{1}{2} \delta(t)^{2}\right]
$ \eta: learning rate
$ E(t)=\left[V^{\pi}(\mathbf{x}(t))-V(\mathbf{x}(t))\right]^{2}
$ \dot{\mathbf{w}}= -\eta\nabla_{\mathbf{w}}E = \eta\left[V^{\pi}(\mathbf{x}(t))-V(\mathbf{x}(t))\right] \nabla_{\mathbf{w}} V(\mathbf{x}(t))
$ =\eta\left[\dot{V}^{\pi}(\mathbf{x}(t))+r(\mathbf{x}(t), \mathbf{a}(t))-\frac{1}{\tau_{r}} V(\mathbf{x}(t))\right] \nabla_{\mathbf{w}} V(\mathbf{x}(t))
2.式を代入
$ \eta \tau_rを新たに$ \etaとした
$ = \eta \delta(t) \nabla_{\mathrm{w}} V(\mathbf{x}(t))
$ \dot{V}^\pi \simeq \dot{V}と近似して3.式を適用
$ \deltaを小さくする方向へ学習する
例えば$ \delta(t)>0ならwはVを増やす方向へ変化し,3.式より$ \delta(t)は減少する
これはTD(λ)のλ=0における連続版になっており,離散版では確率1で収束することから連続版でも収束すると期待 報酬に関する情報(ここではTD誤差)をいかにして過去の価値関数へ伝達するか
or 近似価値関数の更新にいかにして未来の報酬の情報を含むか?yosider.icon
離散版(3.)では$ t-1における$ Vとリンクしているので自然に伝播していく 連続版では,$ Vが$ C_1級であるならば離散版と同様に伝播する?
one assumes that the value function $ V(t) is continuous and continuously differentiable, changing the values of $ V(x(t)) and $ \dot{V}(x(t)) implies changing the values of these functions in a finite vicinity of $ t.